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网 络 线 速 深度 分 组 检测 研究 


深度 分 组 处 理 的 复杂 应 用 演化 , 适合 


热点 。 本 文 指出 了 深度 


分 组 检测 系统 存在 的 “速度 与 性 能 之 间 的 矛盾 ”及 “语义 失真 ”两 个 关键 科学 问题 。 围 绕 这 
两 个 问题 ， 系 统 综 述 和 深入 分 析 了 检测 方法 、 检 测 模型 、 检 测算 法 等 方面 出 现 的 多 种 优化 技 


术 和 策略 ， 探 讨 了 相关 的 研究 动态 与 发 


关键 词 
1 引言 


深度 分 组 检测 ， 特 征集 ， 模 式 


匹配 算法 ; 


aiie 


生 能 评估 


展 趋势 ， 并 总 结 了 进一步 的 研究 方向 。 


深度 分 组 检测 (Deep Packet Inspection，DPI)， 有 时 也 称 为 完全 分 组 检测 (Completely 


Packet Inspection)， 通 过 分 析 一 系列 分 组 
能 ， 属 于 应 用 级 语义 检测 ， 是 保障 网 络 信 ， 


对 于 网 络 服务 提供 商 ， 深 度 分 组 检测 可 以 检测 OST 参 考 模型 的 第 二 至 第 七 层 ， 从 而 使 
一 系列 新 的 网 络 安全 功能 成 为 可 能 ， 例 如 合法 拦截 、 策 略 定义 与 保 记 
检测 已 成 为 网 络 信 息 安 全 的 核心 理论 与 关键 技术 ,例如 : 
荷 是 否 含有 恶意 计算 机 病毒 ， 安 全 路 由 器 


aa OFA, REA 
入 侵 检 测 /保护 系统 (IDS/IPS) 需要 检测 报 文 净 负 


的 头 部 尤其 是 负载 内 容 提供 应 用 层 语义 感知 的 功 


中安 全 的 基本 手段 与 关键 技术 之 一 。 


转发 分 组 前 需要 确定 分 组 是 否 含有 网 络 里 虫 代码 ;垃圾 由 
文 里 的 垃圾 邮件 信息 。 除 此 之 外 ， 深度 分 组 检测 还 允许 旨 
溢出 攻击 、DoS” 攻 击 、 经 验 丰 富 的 黑客 入 侵 等 等 。 对 于 政 
信息 传播 的 重要 手段 ， 
络 流量 的 监测 与 审 
大 意义 。 
本 文 的 研究 工作 是 在 国家 973 重点 基础 研究 发 展 计划 课题 及 


络 环境 信息 感知 的 线 速 深度 分 组 检测 太 
研究 对 象 , 分 析 连 接 
的 影响 ， 从 深度 分 组 检测 机 理 
E 论 基础 、 各 种 优化 技术 及 策略 ， 


度 分 组 检测 相关 到 


E y2 
ERIN 


量 环 境 、 应 月 


2 国内 外 相 


关 研 究 


近年 来 ， 网 络 带 宽 和 流量 急 


E、 版 权 保 护 、 内 容 审查 


粒度 控制 ， 


府 部 门 ， 


使 政府 部 门 可 以 实现 网 络 敏感 内 容 的 调查 、 网 络 与 情 分 析 与 传播 、 
查 , 对 维护 社会 安全 稳定 , 促进 国民 经 济 发 展 ， 乃 至 加 强国 防 建设 具有 


E| 


网 络 


BE (SPAM) 过滤 程序 需要 扫描 报 


能 够 有 效 地 防止 缓冲 区 
深度 分 组 检测 作为 管理 


hah 到 


家 自然 科学 基金 项 目 “ 网 


究 ” 的 支持 下 进行 的 。 本 文 以 动态 变化 的 


网 络 环境 为 


昌 层 语义 环境 等 诸多 网 络 环境 因素 对 深度 分 组 检测 性 能 


并 探讨 相关 的 下 


上 《检测 方法 -检测 模型 -检测 算法 ) 深入 比较 和 分 析 现 有 的 深 


究 动 态 与 发 展 趋势 。 


剖 增 加， 众多 新 型 网 络 协议 与 应 用 不 断 涌 现 ， 对 深度 分 组 检 


测 技术 提出 了 更 高 的 实时 性 要 求 以 及 更 复杂 的 语义 支持 要 求 。 下 面 从 深度 分 组 检测 模型 、 检 


1 open system interconnect, 


司 际 标 ; 


”Deny of Service， 拒 绝 服务 


化 组 织 (ISO) MWA 


11 


F 放 系统 互 连 参考 模型 
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测算 法 、 网 络 环境 信息 等 方面 作 一 评述 。 
2.1 深度 分 组 检测 模型 


总 体 上 ， 现 有 的 检测 模型 缺乏 准确 性 、 灵 活性 和 可 扩展 性 ， 对 更 复杂 的 语义 支持 不 够 ， 
同时 深度 分 组 检测 系统 的 线 速 问 题 仍 然 没 有 解决 。 深 度 分 组 检测 系统 是 保证 网 络 空间 更 加 洛 
净 、 网 络 空间 中 的 国家 主权 更 加 完整 的 核心 技术 之 一 , 涉及 到 国家 机 密 、 公 民 言 论 自由 等 敏 
感 问题 ， 得 到 各 国 的 高 度 重 视 ， 目 前 已 知 的 典型 研究 计划 有 以 下 几 类 : 
(1) 可 扩展 性 : 
典型 的 有 由 美国 NSF( 国 家 自然 科学 基金 ) 提 供 支持 的 STREAM 项 目 。 其 主要 研究 目标 
是 研究 一 个 通用 的 数据 流 管理 系统 ， 包 括 提 供 一 个 通用 的 、 灵 活 的 体系 结构 ， 相 关 的 理论 结 
果 和 算法 、 数 据 模型 ， 相 关 的 语言 和 语义 ， 并 探讨 多 个 连续 、 快 速 、 可 变 的 网 络 流 的 查询 与 
处 理 。 目 前 他 们 的 研究 目标 主要 集中 在 可 扩展 性 和 性 能 优化 方面 。 


(2) 语义 支持 : 


S 典型 的 有 也 是 由 美国 国家 自然 科学 基金 支持 的 NIAGARA 项 目 ， 主 要 研究 目标 是 在 互 
OO 联网 环境 下 的 XML3 数 据 检 索 和 过 滤 系 统 。 该 系统 在 互联 网 上 采集 和 监管 信息 ,然后 包装 为 
到 XML 数据 流 供 检索 和 过 滤 使 用 。 这 样 利用 XML 的 语义 信息 ， 可 以 提供 更 加 准确 的 数据 流 
© 检索 和 过 波 。 

© 

cm (3) 目 适 应 : 

区 典型 的 有 加 州 大 学 伯克利 分 校 的 Telegraph 项 目 。 研 究 目标 是 对 网 络 监 听 器 的 输出 数据 
= 和 web 数据 等 提供 自 适应 的 查询 。 项 目的 特色 是 数据 流 的 自 适应 查询 处 理 ， 包 括 自 适应 连 
= 接 和 自 适应 操作 调整 。 另 外 麻 省 理工 学 院 和 布朗 大 学 的 合作 项 目 一 Aurora， 目 标 也 是 对 各 种 


各 样 的 谋 入 式 设 备 产 生 的 数据 流 进 行 监测 。 康 奈 尔 大 学 也 有 个 对 传感器 的 数据 进行 查询 和 监 
管 的 项 目 Cougar。 


(4) 线 速 处 理 : 


网 络 设备 的 线 速 处 理 , 是 目前 国内 外 学 术 界 和 工业 界 同时 热烈 关注 的 问题 。 所 谓 线 速 处 
理 ， 是 指 一 个 处 理 设备 的 输入 数据 ,经 过 处 理 后 可 以 没有 延迟 地 传输 到 输出 端 (在 排 空 完成 
的 情况 下 )， 即 可 以 以 “在 线 传输 速率 ”进行 处 理 。 这 种 情况 在 实际 中 是 几乎 不 可 能 的 ， 因 
为 任何 处 理 都 需要 时 间 。 实 际 中 的 线 速 处 理 , 一 般 是 指 输入 的 延迟 控制 在 一 定 的 范围 内 ， 比 
如 说 是 输入 速度 的 20% 以 内 的 延迟 。 线 速 处 理 方法 的 有 效 性 主要 与 两 个 因素 密切 相关 : 处 
理 的 复杂 度 和 输入 的 速度 。 对 复杂 的 处 理 ， 实 现 线 速 处 理 显 然 要 困难 得 多 ; 而 对 同样 复杂 度 
的 处 理 ， 显 然 输入 速度 越 高 ， 线 速 处 理 将 越 困 难 。 到 目前 为 止 ， 只 有 有 限 的 论文 涉及 了 线束 
处 理 的 系统 结构 问题 ， 特 别 是 对 于 网 络 环境 相关 的 信息 流 线 速 处 理 问 题 涉 及 更 少 。 


2.2 深度 分 组 检测 算法 


深度 分 组 检测 算法 迄今 为 止 已 有 数 十 种 , 它们 的 原理 各 不 相同 。 传 统 的 检测 算法 通常 分 
为 两 个 阶段 : 第 一 阶段 是 预 处 理 过 程 ， 针 对 给 定 的 模式 集合 P， 根 据 不 同 的 算法 原理 ， 使 用 
不 同 的 数据 结构 对 全 部 横 式 进 行 预 处 理 ， 生 成 特定 的 检测 数据 结构 〈 泛 称 “检测 自动 机 ”); 
第 二 阶段 是 搜索 过 程 ， 对 给 定 的 文本 了 进行 搜索 ， 找 出 全 部 的 结果 。 目 前 检测 算法 仍然 是 
系统 的 速度 瓶颈 。 这 有 两 个 方面 的 原因 ， 分 别 产 生 于 上 面 两 个 阶段 : 


3 Extensible Markup Language， 可 扩展 标记 语言 
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(1) 检测 算法 不 能 适应 变化 着 的 网 络 数据 流 


检测 算法 的 核心 一 检测 自动 机 是 在 预 处 理 阶段 生成 的 , 它 仅仅 通过 对 模式 集合 自身 的 处 
理 来 完成 ， E ee 这 带 来 的 问题 是 : 在 不 同 的 条 件 下 ， 检 测算 
法 的 性 能 表现 千差万别 ， 理 论 分 析 结果 和 实际 运行 效果 不 相符 合 。 


在 先前 的 研究 中 ， 一 直 把 检测 数据 默认 为 是 静态 随机 的 ， 即 与 模式 集合 一 样 ， 是 “等 概 
率 均匀 分 布 ”的 。 因 此 ， 认 为 检测 数据 不 是 算法 给 定 的 条 件 ， 理 论 上 不 需要 对 它 进行 考虑 。 
基于 这 个 前 提 ， 研 究 者 给 出 了 单 模式 匹配 算法 时 间 复杂 度 下 限 ， (ny mlogjzm) ， 多 模式 匹 
配 算法 的 时 间 复 杂 度 下 限 。.Q(n/ mlogsmr) 。 很 多 算法 都 已 经 达到 或 者 接近 这 个 最 优 值 。 


然而 ， 网 络 数据 流 是 应 用 过 程 中 的 输入 ， 具 有 天 然 的 动态 性 。 在 检测 算法 的 研究 中 ， 考 
虑 待 检测 数据 的 特性 是 最 近 几 年 才 有 的 工作 。 文 献 [1] 分 析 了 检测 算法 与 随机 数据 粹 之 间 的 
关系 , 给 出 了 在 界定 业 文 本 上 的 检测 算法 , 并 证 明了 其 平均 时 间 复 杂 度 以 及 最 坏 情况 下 的 时 
间 复 杂 度 。 该 研究 结果 得 出 结论 : 传统 的 检测 数据 “等 概率 均匀 分 布 ” 的 假设 前 提 是 不 合理 
的 。 然而， 该 工作 虽然 考虑 了 模式 的 概率 分 布 ， 随 机 数据 的 概率 分 布 ， a 
环境 考虑 它们 之 间 的 关系 。 动 态 的 应 用 数据 流 对 检测 算法 的 性 能 影响 还 需要 进一步 研究 。 


a wf 
VJ Í 
V I 


© (2) 检测 算法 在 检测 过 程 中 的 状态 空间 巨大 

a 在 影响 检测 算法 性 能 的 诸多 因素 中 , 存储 空间 大 小 占据 着 越 来 越 重要 的 地 位 。 这 是 因为 ， 
© 自动 机 是 模式 检测 算法 的 主要 数据 结构 ， 随 着 模式 集合 规模 的 增 大 , 所 需要 的 巨大 存储 空间 
Cn 导致 缓存 局 部 性 变 得 很 差 ， 从 而 降低 了 算法 的 检测 速度 。 因此， 如 何 减 少 模式 检测 算法 的 存 
= 储 空间 、 优 化 缓存 的 局 部 性 ， 也 是 近年 来 研究 的 一 个 方向 。 

M 

= 文献 [2] 提 出 一 种 分 片 的 算法 ， 选 择 出 导致 确定 有 限 自动 机 (Deterministic Finite 
= Automaton, DFA ) 状态 膨胀 的 片段 并 将 其 隔离 ， 从 而 降低 了 单个 正则 表达 式 存储 需求 。 同 
= 时 ,文献 基于 正则 表达 式 的 组 合 关系 提出 一 种 选择 性 分 组 算法 ,在 可 以 接受 的 存储 需求 总 量 


下 , 通过 选择 性 分 群 大 幅度 减少 了 状态 机 的 个 数 ， 有 效 地 降低 了 匹配 算法 的 复杂 性 。 文献 [3] 
使 用 了 一 种 基于 Bloom filter 〈 布 隆 滤 波 器 ) 的 数据 结构 ， 将 多 条 规则 映射 到 一 维 向 量 空 间 
上 ， 有 效 地 降低 了 存 贮 空间 要 求 。 文 献 [和 ] 则 是 使 用 了 对 模式 中 的 字符 出 现 频率 的 统计 ， 设 


T 计 新 的 检测 自动 机 结构 ， 将 经 典 的 AC“ 算 法 数据 结构 空间 占用 降低 了 75% 至 84%。 文 献 [5] 
(S) 研究 了 经 典 检测 算法 的 性 能 与 缓存 的 关系 , 并 针对 不 同类 型 的 算法 提出 了 相应 的 缓存 优化 策 
略 ， 其 试验 结果 表明 ， 自 动机 的 存储 空间 可 压缩 到 不 超过 原始 存储 空间 的 5%， 速 度 上 能 够 


获得 2 一 3 倍 的 提升 。 


分 析 上 述 两 个 阶段 ， 我 们 考虑 的 问题 是 : 自动 机 应 该 在 检测 阶段 而 不 是 预 处 理 阶 段 ， 随 
网 络 流量 的 变化 , 根据 输入 的 数据 流 而 自 适应 地 创建 或 增 减 状态 。 这 样 自 动机 既 能 适应 动态 
的 网 络 数据 流 ， 又 极 大 地 减少 空间 要 求 ， 从 而 消除 算法 的 速度 瓶颈 。 


2.3 网 络 环境 信息 


相关 研究 的 发 展 动 态 与 趋势 表明 , 流量 环境 信息 与 应 用 层 语义 环境 信息 , 无 论 是 对 深度 
分 组 检测 的 速度 、 还 是 准确 性 ， 都 有 着 显著 的 影响 。 


(1) 流量 环境 信息 (提高 检测 速度 ) 
文献 [6] 研 究 表明 : 网 络 流量 特征 的 出 现 频 率 分 布 呈现 不 均匀 性 ， 少 数 流量 特征 出 现 频 
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率 非 常 高 。 文 献 [7] 的 研究 指出 : 对 占据 大 部 分 网 络 流量 的 网 络 流 进行 识别 和 特别 对 待 、 处 
理 有 利于 优化 资源 利用 。 文 献 [8] 和 [9] 相 关 研 究 表明 很 大 比例 的 网 络 流量 承载 的 网 络 信 息 内 
容 是 相同 或 相似 的 。 我 们 在 前 期 的 研究 [10、11] 中 针对 我 国 高 速 骨干 网 络 流量 ， 对 应 用 层 协 
议 分 布 情况 进行 了 统计 , 发 现 应 用 层 协 议 类 型 分 布 是 极其 不 均匀 的 , 同时 应 用 层 数据 内 容 分 
布 也 出 现 不 均衡 性 。 流行 的 、 广 泛 应 用 的 内 容 被 大 量 用 户 点 击 ， 承载 这 些 内 容 的 流量 在 网 络 
流量 中 占有 很 大 比例 。 我 们 对 观察 到 的 数据 进行 分 析 , 发 现 网 络 流量 传输 的 内 容 偏 斜 和 集中 
于 一 些 当 前 流行 的 、 常 用 的 文件 ， 包 括 : Web 网 页 、 音 乐 文件 、 对 等 传输 (P2P) 共享 文件 、 
蠕虫 病毒 和 垃圾 邮件 等 。 因 此 , 传统 的 基于 静态 随机 数据 的 深度 分 组 检测 模型 与 检测 算法 在 
理论 设计 与 性 能 分 析 上 已 经 不 能 适应 动态 变化 的 网 络 流量 。 


文献 [6] 利 用 文献 [12] 对 网 络 流量 属性 特征 的 研究 ， 提 出 了 对 深度 分 组 检测 的 优化 方法 。 
文献 [6] 提 出 了 一 种 专门 的 编码 技术 ， 用 于 建立 自 适应 流量 统计 的 哈 夫 曼 〈Huftman) W’, 
该 方法 可 以 采用 并 行 处 理 ， 而 且 其 最 坏 的 情况 有 下 限 。 文 献 [13] 使 用 统计 搜索 树 以 缓存 的 形 
式 来 动态 建立 新 的 规则 。 这 些 新 的 规则 具有 更 高 的 命中 概率 ,支持 根据 预测 网 络 流量 的 变化 
来 自 适应 调整 一 一 在 搜索 树 中 , 流量 特性 反应 在 树 凯 历 过 程 中 的 不 均衡 性 。 大 量 搜索 遍历 的 
最 终结 果 总 是 集中 在 少数 几 个 叶子 节点 上 。 文 献 [14] 研 究 了 自 适应 流量 的 包 过 滤 ， 该 方法 是 
一 种 实时 包 分 类 机 制 ， 取 得 了 较 好 的 效果 。 


我 们 在 文献 [15、16] 中 针对 我 国 #1 我 国 核心 网 2008 年 3 月 协议 分 布 统计 
RER TAANE, 对 应 用 协议 分 协议 名 称 HTTP Bitorrent eDonkey SMTP 
E a es, 发 现 应 用 协议 协议 比例 42.83% 31.01% 13.08% 4.72% 
类 型 分 布 是 极 TAA i RA 协议 名 称 ” FTP TSP Gnutella others 
多 种 应 用 层 协议 , 但 是 使 用 最 多 协议 比例 2.47% 01.60% 0.8% 03.5% 
的 前 10 种 协 占据 了 超过 95% 的 网 络 一 
流量 ， 如 表 一 所 示 。 同 时 ， 正 如 前 文 所 述 ， 应 用 层 数 据 内容 分 布 也 出 现 不 均衡 性 。 传 统 方法 
已 经 不 能 适应 动态 变化 的 网 络 流 量 。 


(2) 应 用 层 语 义 环境 "信息 (提高 检测 准确 度 ) 


文献 [17] 指 出 ， 利 用 与 上 下 文 相关 的 
语义 信息 的 要 求 使 得 在 检测 数据 中 寻找 
特定 模式 的 传统 模式 匹配 方法 已 不 能 满 
足 要 求 。 深 度 分 组 检测 程序 依赖 于 应 用 层 
语义 来 做 出 有 效 的 决策 ， 需 要 更 多 的 研究 
以 建立 可 扩展 的 、 高 效 的 模式 匹配 方案 。 
同时 ， 越 来 越 多 的 网 络 安全 系统 依赖 于 协 
议 分 析 并 从 网 络 数据 流 中 提取 应 用 层 的 
语义 环境 信息 。 


同时 ， 应 用 层 协议 分 析 日 渐 成 为 深度 
分 组 检测 的 重要 组 成 部 分 。 文 献 [18] 提 出 
了 一 个 基于 网 络 动 态 应 用 层 协 议 分 析 的 
入 侵 检测 系统 。 对 于 每 一 个 连接 ， 该 方法 


图 1. 基于 决策 树 的 应 用 层 协 议 分 析 
首先 确定 可 能 的 应 用 层 协 议 种 类 , 然后 使 用 适当 的 分 析 器 分 析 协 议 并 且 提 取 应 用 层 语义 进行 


”又 称 最 优 二 又 树 
“这 里 的 语义 ， 不 是 指 自然 语言 理解 的 语义 ， 而 是 指 通信 协议 三 要 素 〈 语 义 、 语 法 与 定时 ) 中 的 语义 ， 即 
与 通信 上 下 文 相 关 的 信息 。 


Ally 
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决策 ， 取 得 了 较 好 的 效果 。 文 献 [19] 提 出 了 一 个 通用 应 用 层 协 议 分 析 (GAPA) 架构 及 原型 ， 
GAPA 能 够 快速 对 协议 进行 在 线 分 析 ， 其 工作 非常 值得 借鉴 ， 但 是 在 自 适应 性 、 灵 活性 、 决 
策 的 准确 性 等 方面 稍 显 不 足 。 


文献 [17] 认 为 在 深度 分 组 检测 模式 匹配 算法 中 ， 理 解 复 杂 的 协议 和 应 用 层 语义 是 非常 有 
益 的 ， 有 助 于 解释 匹配 成 功 的 意义 。 调 查 显示 ， 有 近 百 分 之 八 十 的 攻击 来 自 于 应 用 层 。 
应 对 这 些 攻 击 仅仅 进行 数据 语法 层面 的 检测 是 无 能 为 力 的 , 必需 在 应 用 层 分 析 数 据 的 内 容 及 
其 通信 的 目的 与 意图 。 文 献 [21] 通 过 使 用 决策 树 技术 实施 应 用 协议 分 析 来 提高 检测 能 力 ， 如 
图 1 所 示 。 这 种 协议 分 析 提 取 协 议 的 特定 部 分 ， 可 大 大 减 小 特征 搜索 的 空间 。 同 时 ， 该 文献 
研究 指出 , 基于 应 用 层 语义 的 处 理 方法 提供 了 高 层次 的 抽象 , 是 提高 检测 准确 性 的 合适 选择 。 


3 “关键 科学 问题 与 技术 难点 


3.1 关键 科学 问题 


由 于 网 络 带宽 和 流量 的 急剧 增加 和 众多 新 型 协议 与 应 用 的 不 断 涌现 , 深度 分 组 检测 必须 
支持 更 高 的 实时 性 要 求 以 及 更 复杂 的 语义 支持 要 求 。“ 速 度 与 性 能 之 间 的 矛盾 ”及 “语义 失 
真 ” 是 当前 深度 分 组 检测 系统 的 两 个 关键 科学 问题 与 技术 难点 。 


深度 分 组 检测 的 目标 是 深入 检测 主机 之 间 交 互 的 本 质 , 并 根据 应 用 层 语 义 进行 决策 。 然 
而 ， 现 有 的 深度 分 组 检测 模型 与 算法 无 论 是 在 理论 设计 上 ， 还 是 在 性 能 分 析 上 ， 其 假设 的 检 
测 对 象 为 语法 层面 的 静态 随机 数据 。 而 在 实际 环境 中 ,在 高 速 的 网 络 流量 中 ,检测 的 对 象 一 
网 络 数据 时 时 刻 刻 在 发 生变 化 , 网 络 流量 的 特性 也 不 断 变化 ,各 种 新 型 的 网 络 协议 层出不穷 ， 
应 用 层 的 语义 环境 也 日 益 复杂 多 样 。 静 态 随机 数据 既 不 能 反映 真实 网 络 流量 的 特性 及 其 变 
化 ,也 无 助 于 理解 复杂 的 协议 和 应 用 层 语义 ， 更 不 能 解释 检测 成 功 的 意义 ,往往 造成 严重 的 
“语义 失真 ” 


同时 ， 由 于 网 络 信 息 的 急剧 膨胀 , 对 通过 深度 分 组 检测 的 网 络 信 息 进 行 的 复杂 处 理会 使 
信息 的 输出 有 很 大 的 延迟 ， 使 网 络 传输 速度 降低 ， 带 宽 严 重 损失 。 这 种 延迟 量 随 处 理 复 杂 度 
的 增长 一 般 是 非 线性 函数 。 而 对 于 高 速 的 网 络 ， 如 IPv6，ATM 和 干 兆 以 太 网 ， 必 须 对 高 速 
到 达 的 网 络 分 组 进行 无 延迟 的 线 速 (On-line Speed) 检测 。 如 果 检 测速 度 跟 不 上 网 络 数据 的 
传输 速度 , 将 会 导致 严重 的 拥塞 , 检测 系统 就 会 漏 检 和 错 检 其 中 的 部 分 数据 , 从 而 导致 漏 报 、 
普 报 而 影响 系统 的 准确 性 和 有 效 性 。 


3.2 技术 难点 


下 面 从 深度 分 组 检测 机 理 上 《检测 方法 -检测 模型 -检测 算法 ) 深入 比较 和 分 析 现 有 的 与 
深度 分 组 检测 相关 的 理论 基础 、 各 种 优化 技术 及 策略 。 


3.2.1 深度 分 组 检测 检测 方法 
3.2.1.1 特征 集 


“特征 ”是 深度 分 组 检测 的 关键 概念 。 在 法 律 上 ， 指 纹 被 用 来 鉴别 公民 (或 个 人 ) 是 否 
卷 入 犯罪 事件 ， 在 深度 分 组 检测 中 ,特征 (签名 ，Signature) 被 用 来 鉴别 应 用 程序 或 恶意 行 
为 。 


为 了 对 成 二 上 万 的 网 络 应 用 程序 进行 分 析 ， 必 需 提供 有 条 理 、 系 统 化 的 鉴别 方法 。 广义 
而 言 ， 特 征 就 是 模式 碎片 。 这 些 横 式 碎片 被 筛选 出 来 ， 应 该 可 以 独一无二 地 鉴别 与 之 关联 的 


N 


高 速 网 络 线 速 深度 分 组 检测 研究 


应 用 程序 〈 如 图 2 所 示 )。 例 如 : 应 用 协议 使 用 特别 的 信息 头 初始 化 并 控制 信息 的 传递 ;网 
络 入 侵 、 蠕 虫 、 病 毒 含 有 特定 代 由 若干 数据 包 得 
码 片 断 ， 待 查询 的 特定 信息 也 可 到 的 特征 

视 为 特征 。 一 般 将 这 些 特征 表示 
成 正则 表达 式 的 形式 。 当 发 现 新 
的 应 用 程序 或 恶意 行为 时 ， 就 对 
其 进行 分 析 ， 设 计 出 合适 的 特征 
并 添加 到 数据 库 中 。 此 数据 库 一 
般 称 之 为 特征 库 。 限 于 篇 幅 ， 本 
文 对 分 析 发 现 新 特征 的 方法 和 技 
术 不 加 评述 ， 有 具体 可 参见 文献 
[22，23]。 


zE 
寺 征集 的 复杂 性 及 其 描述 方 Ee 
法 ， 对 检测 速度 及 检测 的 准确 性 
= 产生 了 严重 影响 。 导 致 深度 分 组 Sea ee ae a 
= ee N 图 2。 深度 分 组 检测 根据 特征 集 鉴别 会 话 
准确 性 与 实用 性 的 主要 是 特征 集 以 下 四 方面 特点 : 


(1) 网 络 协议 多 种 多 样 ， 各 种 新 型 的 协议 不 断 涌现 ,各 种 新 的 安全 攻击 也 层出不穷 ,导致 特 
= 征集 数量 巨大 。 比 如 Snort 入 侵 检 测 系统 截止 到 2006 年 四 月 就 已 包含 4867 条 规则 ， 而 
且 每 条 规则 里 面包 含 多 个 特征 。 另 外 ， 网 络 环境 日 新 月 异 ， 导 致 特征 集 不 断 变化 ， 不 
N 断 更 新 ， 具 有 动态 性 。 


f (2) .特征 存在 重复 现象 ， 每 个 分 组 可 能 与 多 个 攻击 相关 ， 比 如 在 Snort 系统 中 ， 一 个 HTTP 
N 分 组 可 能 存在 1096 个 攻击 漏洞 。 


= (3) 特征 在 分 组 中 的 出 现 位 置 具有 不 确定 性 ,因为 应 用 程序 的 格式 复杂 多 变 , 通常 不 能 准确 
~ 地 确定 特征 在 分 组 中 的 出 现 位 置 ， 因 此 必须 高 速 检 查分 组 头 部 及 负载 的 每 一 字 节 。 


= (4) 正则 表达 式 可 以 表述 比 单字 符 串 、 字 符 吕 集合、 扩展 字符 串 更 复杂 的 模式 ， 由 于 其 强 描 
述 能 力 和 灵活 性 ,在 深度 分 组 检测 系统 得 到 了 广泛 的 应 用 。 著 名 的 开源 系统 Snort, Bro 
等 ， 均 采用 正则 表达 式 形式 的 特征 集 。 然 而 正则 表达 式 与 应 用 协议 的 语义 之 间 存 在 着 
鸿沟 ， 仪 仅 根 据 正则 表达 式 匹 配 的 结果 ， 难 以 进行 应 用 语义 级 决策 。 


CY 


3.2.1.2 特征 碎片 与 分 组 乱 序 


深度 分 组 检测 中 导 找 恶意 模式 一 般 是 
根据 预先 定义 的 特征 集 ， 对 分 组 任意 位 置 的 
内 容 使 用 正则 表达 式 匹 配 算法 进行 精确 模 
式 匹配 。 在 一 个 网 络 通信 会 话 里 ， 通 信 的 数 o mo 
据 被 拆 分 成 多 个 部 分 分 别 封 装 在 多 个 不 同 ARRA poem 

的 分 组 中 ， 待 检测 的 目标 模式 往往 跨越 多 个 。“” 图 3， 分 组 级 检测 无 法 检测 出 整个 模式 
分 组 ， 因 此 以 单个 分 组 为 检测 单位 无 法 检测 出 整个 模式 。 


如 图 3 所 示 ， 对 单个 分 组 进行 检测 无 法 检测 出 模式 “attack”， 因 为 它 被 拆 分 地 分 布 在 三 
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个 不 同 的 分 组 里 。 对 于 需要 完全 检测 的 安全 类 应 用 程序 ， 比 如 NIDS ， 这 个 问题 非常 严重 。 
因为 攻击 者 往往 故意 拆 分 攻击 模式 以 规避 检测 ， 为 了 发 现 这 些 模式 碎片 ， 必须 进 行 会 话 级 的 
检测 。 


深度 分 组 检测 的 另 一 个 重要 问题 是 分 组 的 乱 序 处 理 与 会 话 重组 ”“"。 由 于 网 络 环境 的 复 
杂 性 ， 对 于 模式 匹配 单元 , 属于 同一 个 会 话 的 分 组 物理 到 达 顺 序 往 往 并 不 是 逻辑 连续 的 ， 称 
之 为 乱 序 (Out of Order)。 后 续 分 组 乱 序 时 ， 模 式 匹 配 过 程 将 会 终止 ， 如 图 4 所 示 。 


对 分 组 乱 序 问题 已 经 有 人 在 不 同 


的 网 络 环境 下 分 别 做 了 相关 的 研究 。 = a BEI 
文献 [25] 采 用 了 发 送 ICMP 分 组 并 分 一 一 一 一 X 当 处 理 
析 其 响应 的 方法 。 这 种 方法 的 主要 问 annus pi \ 
题 是 不 同 的 网 络 对 待 ICMP 流量 处 理 ***| anidea | | ofatta ckanda ttacka | | ndmor | °° 
的 方法 各 不 相同 。 文 献 [26] 采 用 不 同 的 数据 包 丢 弃 
方法 研究 了 端 到 端的 TCP? 会 话 ， 文 献 TCP 顺 序号 I 
[27] 进 行 了 更 广泛 的 分 析 , 采用 了 在 网 数据 包 
~ 络 中 设置 单个 捕获 点 来 检测 乱 序 分 组 图 4， 分 组 乱 序 导 致 匹配 终止 


和 TCP 会话; 文献 [28] 采 用 了 与 [27] 
相似 的 方法 分 析 TCP 会 话 的 吞吐 量 ， 并 重点 研究 了 TCP 重组 窗口 对 吞吐 量 及 通信 性 能 的 影 
响 ， 文 献 [29] 研 究 了 UDP" 会 话 的 重组 问题 ， 使 用 的 方法 是 基于 流 的 重组 ， 其 主要 工作 放 在 
了 流 内 部 的 重组 机 制 方面 ， 并 对 突 发 流量 进行 了 相关 研究 。 


= 为 了 获得 精确 的 匹配 结果 ， 后续 分 组 需要 做 适当 的 处 理 
~ 分 组 和 丢弃 后 续 乱 序 分 组 两 种 。 


Q 缓冲 后 续 乱 序 分 组 的 方法 5 3 将 后 续 的 乱 序 分 组 存储 在 缓冲 区 中 ， 根 据 分 组 的 顺序 号 


处 理 方法 一 般 有 缓冲 后 续 乱 序 


-> 


重新 进行 排序 , 把 排 好 序 的 分 组 依次 送 入 模式 匹配 单元 进行 检测 。 当 所 需 的 下 一 个 逻辑 分 组 
= 未 到 达 时 , 检测 单元 停止 并 等 待 后 续 罗 和 辑 连续 的 分 组 到 达 。 缓 冲 后 续 乱 序 分 组 需要 的 缓冲 空 


间 为 [往返 时 间 (RTT) |) x[ 网 络 带宽 ], 假设 RTT=200ms， 带 宽 =40Gbps， 所 需 的 存储 空间 达 
到 1GB。 在 最 坏 的 情况 下 ， 绥 冲 高 速 到 达 的 乱 序 分 组 会 使 所 需 的 存储 空间 持续 增加 。 由 于 
‘= 网 络 高 速 增长 且 增 速 高 于 存储 容量 ， 在 可 以 预见 的 未 来 此 问题 将 变 得 更 为 严重 。 
© 另 一 种 方法 是 丢弃 后 续 所 有 逻辑 顺序 不 一 致 的 分 组 SJ, 由 于 TCP 协议 的 延 时 重 传 机 制 ， 
模式 匹配 单元 会 最 终 获 得 逻辑 一 任 的 后 续 分 组 。 这 种 方法 的 次 端 是 由 于 大 量 的 分 组 被 丢弃 ， 
TCP 协议 的 流 控制 机 制 会 使 网 络 的 后 量 急剧 下 降 。 在 TCP 协议 中 ， 由 分 组 丢失 带 来 的 恢复 
时 间 是 RTTx 分 组 丢失 数量 。 而 且 ， 如 果 延 时 重 传 时 间 RTO (retransmission time out) 超出 ， 
汇聚 窗口 (CCWND) 将 被 重 置 到 最 小 。 
3.3 深度 分 组 检测 模型 
3.3.1 建 模 
这 里 我 们 以 应 用 协议 分 类 为 例 对 深度 分 组 检测 进行 建 模 与 性 能 评估 , 其 他 两 类 深度 分 组 
检测 与 本 例 相 同 或 类 似 。 深 度 分 组 检测 协议 分 类 模型 的 结构 如 图 5 所 示 。 通过 观察 ,每 个 应 


”Network Intrusion Detection System， 网 络 入 侵 检 测 系 统 
8 Internet Control Message Protocol， 因 特 网 信息 控制 协议 
9 Transmission Control Protocol， 传 输 控制 协议 

10 User Datagram Protocol， 用 户 数 据 报 协 议 

1 round trip time 
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用 协议 都 会 使 用 特别 的 信息 头 初始 化 并 控制 信息 的 传递 。 模 型 为 两 部 分 : 慢 速 通道 和 快速 通 
道 。 慢 速 通道 定义 未 分 类 会 话 的 处 理 方法 及 所 使 用 的 特定 算法 (深度 分 组 检测 使 用 正则 表达 
式 ), 快速 通道 根据 慢 速 通道 的 结果 把 后 续 的 分 组 (属于 同一 会 话 的 ) 关联 到 正确 的 协议 站。 
分 类 器 模型 包括 五 个 处 理 - = 
单元 : 会 话 ID 抽取 单元 、 会 话 ae 
ARAJ ALMAN S 
话 更 新 单元 以 及 会 话 关联 单 会 话 查 找 单元 
元 。 协 议 分 类 器 运行 时 ， 如 果 Plookup Ciookup 
一 个 会 话 的 分 组 尚 无 法 判别 属 
于 哪 种 协议 ， 就 把 该 分 组 传递 


给 深度 分 组 检测 分 类 器 。 
器 使 用 协议 特征 集 对 该 分 组 进 
行 模式 匹配 。 
配 成 功 ， 就 将 该 分 组 (和 整 


TCP 


协议 类 别 ， 属 于 该 会 话 的 
卖 分 组 则 跳 过 特征 匹配 单 
当 一 个 新 的 会 


后 续 
Ies 
别 


后 ， 


新 条 目 。 这 个 条 目 包 括 5 元 组 、 
应 用 协议 类 别 和 时 间 惟 。 时 间 
戳 用 来 记录 分 类 器 观察 到 该 会 


分 类 


~ 


-lo 


会 话 ) 关 别 为 相应 的 应 用 


CE 


Wa 


话 被 成 功 鉴 
话 表 中 创建 一 个 


就 在 会 


corr_lookup 


a 
Æ 


corr_lookup| 


g 


话 最 后 一 个 分 组 的 时 间 。 人 快速 a 
通道 的 主要 功能 是 更 新 会 话 表 
中 当前 会 话 的 时 间 戳 ， 删 除 在 
会 话 表 中 不 活动 的 会 话 ， 以 防 
止 会 话 结束 后 该 会 话 没 有 从 会 
话 表 中 删除 ， 这 对 UDP 数据 流 
尤为 普遍 ，10 分 钟 的 会 话 超 时 
通常 认为 该 会 话 已 经 结束 中 。 
3.4 深度 分 组 检测 算法 

根据 自动 机 和 文法 理论 ， 
正则 表达 式 具 有 与 自动 机 等 价 
的 描述 能 力 ， 因 此 可 以 通过 构 图 5. 深度 分 组 检测 模型 及 性 能 评估 
造 正则 表达 式 对 应 的 自动 机 来 
识别 正则 表达 式 的 语言 。 自 动机 分 为 两 种 形式 : 一 种 是 非 确定 有 限 自 动机 (Nondeterministic 
Finite Automaton, NFA), 另外 一 种 是 确定 有 限 自动 机 (Deterministic Finite Automaton, DFA). 
非 确定 有 限 自 动机 和 确定 有 限 自 动机 的 区 别 在 于 : 对 于 确定 的 状态 和 确定 输入 , 非 确定 有 限 
自动 机 允许 有 多 个 后 继 状态 ， 而 确定 有 限 自动 机 则 上 只 能 有 唯一 的 后 继 状 态 。 非 确定 有 限 自动 
机 和 确定 有 限 自 动机 在 描述 能 力 上 是 等 价 的 。 

图 6 是 用 自动 机 进行 正则 表达 式 匹 配 的 一 般 过 程 。 首 先 ， 正 则 表达 式 被 解析 成 解析 树 ， 
然后 再 转换 成 非 确定 有 限 自动 机 。 目 前 ， 从 解析 树 构 造 非 确定 有 限 自动 机 的 常用 方法 有 汤 普 
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ih (Thompson) 构造 法 和 柯 罗 希 克 夫 (Glushkov) 构造 法 。 构 造 好 非 确 定 有 限 自 动机 后 ， 
可 以 直接 用 它 进 行文 本 
匹配 , 也 可 以 将 其 确定 化 
和 最 小 化 来 构造 相应 的 = 
确定 有 限 自 动机 , 然后 用 
确定 有 限 自 动机 进行 文 目标 文本 
法 : Glushkov ~ 
NFA 构造 
(1) 基于 非 确定 有 限 DFA 
ee 图 6， 正则 表达 式 搜索 的 一 般 过 程 
前 面 已 经 介绍 过 , 对 于 确定 的 状态 和 确定 的 输入 , 非 确 定 有 限 自 动机 允许 有 多 个 到 达 状 
ee ee ale ae ame ae eee S N 
新 字符 ， 依 次 查看 当前 的 每 一 个 活动 状态 ， 以 获得 被 激活 的 新 状态 ; 然后 将 这 些 新 状态 加 入 


到 一 个 新 的 活动 状态 集合 。 


设 正则 表达 式 的 
个 活动 状态 。 通 过 使 有 


林 度 为 O(m). % m 比较 大 时 ， 


AP 
(2) 


外 定 有 限 自 动机 匹配 引 


擎 易于 


限 自动 机 的 匹配 方法 


基于 确定 有 限 自 动机 的 匹配 方法 利用 了 确 


BN 


长 度 为 m， 则 每 个 状态 最 多 有 m 个 可 到 达 状 态 
位 向 量 的 方法 , 基于 非 而 


下 配 速 度 比 较 慢 ， 但 其 空 


实现 。 


定 有 


输入 ， 确 


EARE 


动机 只 能 有 了 唯 


的 到 


E4 


oí), 


匹配 速度 大 大 提高 。 


fz 


间 上 的 指数 增长 ,最 坏 情况 下 确 


度 )。 在 当前 的 应 用 需求 5 


(3) 混合 方法 


H, m FE 


针对 非 确 定 有 限 自 动机 较 慢 


但 是 


FE WA 


AEA 


限 自动 机 的 空 
主 比较 大 ， 这 是 无 法 


的 匹配 速度 和 R1. 


H e 


RAH 


确定 有 PB 
出 了 一 种 折 中 的 方法 
动机 和 确定 有 限 

AGE: 首先 把 

块 , 然后 分 别 对 
划分 之 后 的 非 确 
mk (m 为 正则 


确定 有 限 E 


几 较 大 的 存储 空 


i AN Te. 


动机 之 间 ， 


Si], A 


FAR 


a 


GIT 


该 方法 的 核心 思 
E 确 定 有 限 自 动机 划分 成 个 模 
每 个 模块 构建 确定 有 限 自 动 
定 有 限 自 动机 相当 于 最 多 有 
表达 式 规 模 ) 个 活动 状态 
法 的 状态 转换 时 间 复 杂 度 为 O(m/k)， 
动机 的 划分 , 即 决定 如 何 选择 合 


区 


非 确定 有 限 E 


E NFA 


DFA 


机 。 


宗 间 复杂 YEN O(m x 


和 定 有 限 自 动机 的 


限 自 动机 的 特性 : XFA 
达 状 态 。 因 此 ， 该 类 方法 的 状态 转换 时 间 复 杂 度 为 
FE 确定 有 限 自 动机 相 比 ， 确 定 有 限 自 动机 有 
间 复 杂 度 为 O(27) Cm 为 了 


忍受 的 。 


基于 NEA 和 DFA 匹配 的 复杂 


匹配 方法 


混合 方法 O(m/k) 


， 每 个 模块 最 坏 情 况 下 需要 O(2*) 空间 ， 因 


， 并 且 当 前 最 多 可 有 m 
下 配方 法 的 状态 转换 时 间 复 
FE 纯 的 


x 间 复 杂 度 仅 为 O(m), If AA 


角 定 的 状态 的 确定 


za 


可 能 带 来 空 
F 则 表达 式 的 长 


度 比较 
状态 转换 
时 间 复 杂 
O(1) 
O(m) 


空间 复杂 度 
O(m) 
O(2™) 
O(m x 2*/k) 


此 该 方 


2*/k) 。 该 方法 的 一 个 缺点 是 对 非 


适 的 k 值 


较 困 难 。 表 2 是 上 述 三 种 方法 的 复杂 度 比 较 : 


4 ”未 来 研究 方向 与 展望 


尽管 近年 来 湖 现 了 很 多 解决 深度 分 组 检测 关键 问题 与 技术 难点 的 研究 思路 、 方 法 和 算 
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以 及 每 个 状态 应 该 划分 到 哪个 模块 ， 比 


zu 


速 网 络 线 速 深度 分 组 检测 和 


ot 


法 ， 但 是 还 存在 许多 需要 进一步 深入 研究 的 问题 


(1) 如 何 进一步 提高 处 理 能 力 随 着 高 速 处 理 要 求 的 日 益 增 加 ， 可 以 预计 ， 今 后 深度 分 组 检 
测 的 应 用 将 会 更 多 地 以 硬件 实现 。 但 为 了 兼顾 灵活 ， 也 会 相应 地 引入 一 些 辅助 的 软件 
策略 。 目 前 ， 在 普通 硬件 上 ， 以 Snort 规则 集 作为 模式 集合 的 实现 ， 其 吞吐 量 一 般 不 超 
过 10G， 还 有 可 能 通过 改进 辅助 器 件 和 优化 策略 来 进一步 提高 。 


(2) 如 何 快速 检测 加 密 了 的 数据 加 密 了 的 数据 一 般 不 能 直接 被 深度 分 组 检测 到 。 目 前 已 经 
有 了 相应 的 方法 ， 就 是 在 深度 分 组 检测 组 件 中 加 入 解密 插件 。 然 而 解密 算法 耗 时 大 ， 
对 线 速 检测 影响 很 大 。 如 何 快速 实现 对 加 密 了 的 数据 进行 深度 检测 ， 是 需要 进一步 下 
究 的 问题 。 


(3) 如 何 实时 检测 无 特征 的 攻击 本 文 假设 特征 集 是 预先 已 知 的 ， 然 而 在 某 些 情况 下 ， 比 如 
蠕虫 爆发 后 ， 及 时 散播 新 的 特征 以 供 检 测 并 不 是 da 。 因 为 某 些 蠕虫 
爆 ， 比 如 Slammer worm devastation， 发 生 时 会 侵占 大 部 分 网 络 带 宽 ， 引 起 网 络 拥塞 。 
因此 需要 新 的 算法 在 没有 特征 集 的 条 件 下 检测 可 疑 的 流量 ， 并 在 得 到 新 的 特征 前 限制 
可 颖 流量 的 速率 。 


ua 


i 
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